Skip to main content

Model Card

Here is a detailed description of how cogkit supports models.

All training requirements must be strictly followed as specified in the table below, including resolution, number of frames, prompt token limit, and video length requirements.

CogVideo

Model Name	CogVideoX1.5-5B	CogVideoX1.5-5B-I2V	CogVideoX-2B	CogVideoX-5B	CogVideoX-5B-I2V
Release Date	November 8, 2024	November 8, 2024	August 6, 2024	August 27, 2024	September 19, 2024
Video Resolution (W * H)	1360 * 768	Min(W, H) = 768 768 ≤ Max(W, H) ≤ 1360 Max(W, H) % 16 = 0	720 * 480
Number of Frames	Should be 16N + 1 where N ≤ 10 (default 81)		Should be 8N + 1 where N ≤ 6 (default 49)
Prompt Language	English
Prompt Token Limit	224 Tokens		226 Tokens
Video Length	5 seconds or 10 seconds		6 seconds
Frame Rate	16 frames / second		8 frames / second
Download Link (Diffusers)	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel

CogView

Model Name	CogView4-6B (Latest)
Release Date	March 4, 2025
Resolution	512 ≤ (W, H) ≤ 2048 H * W ≤ 2^21 Max(W, H) % 32 = 0
Prompt Language	English，简体中文
Prompt Token Limit	1024 Tokens (GLM-4-9B)
Download Link (Diffusers)	🤗 HuggingFace 🤖 ModelScope 🟣 WiseModel

CogVideo
CogView